Приводится аналитический обзор по эволюции цифровых технологий. Отмечается различие парадигмы цифровой реализации аналоговых моделей и цифровых технологий. Рассматривается алгоритмический подход к обработке аудиовидеосигналов.
Предлагается метод оценки семантической близости документов на основе латентно-семантического анализа, учета динамики изменения сингулярных значений матрицы терм-документ и автоматического определения диапазона ранговых значений. Оценка семантической близости документов рассматривается применительно к решению задач выявления дублирования и противоречий в базах данных.
Приводится краткий обзор подходов, используемых при оценке семантической близости документов, выявлении дублирования и противоречий в базах данных и хранилищах данных. Приводятся результаты численных примеров оценки семантических зависимостей между термами документов в интересах выявления дублирования и противоречий в базах данных. При этом в качестве результирующей характеристики рассчитывается степень соответствия λ сравниваемых документов.
Приведены сравнительные оценки расчета степени соответствия λ документов с помощью основных методов (косинусной меры близости, векторной модели, коэффициента ранговой корреляции Спирмена, статической меры tf-idf — частота термина — обратная документная частота).
Показано, что использование предложенного метода анализа динамики изменения сингулярных чисел матрицы «терм-документ» с автоматическим выбором диапазона используемых ранговых значений позволяет устранить зависимость метода латентно-семантического анализа от выбора оптимального ранга.
Предлагается подход к автоматической рубрикации текстовых документов на основе совместного применения метода латентно-семантического анализа (ЛСА) и алгоритма нечёткого вывода Мамдани. Метод ЛСА используется для смыслового анализа информации в системах электронного документооборота путем выявления семантических зависимостей между термами документов и получения коэффициента соответствия сравниваемых векторов.
Предлагается база правил для алгоритма нечёткого вывода Мамдани, реализующего автоматическую рубрикацию документов по множеству заданных тематик с возможностью автоматизированного контроля за распределением документов не соответствующим заданным тематикам или имеющим сходство сразу по нескольким тематическим категориям на основе результатов латентно-семантического анализа.
В статье предлагается метод оценки качества технических текстов, основанный на применении подхода аналитического самореферирования. Предлагается эвристический критерий качества текстов, основанный на оценке скорости уменьшения объема реферата текста.
В статье проведен обзор существующих систем компьютерного сурдоперевода, выявлены их преимущества и недостатки. Рассматривается общий случай перевода (в обе стороны): со звучащего русского на русский язык жестов и наоборот. Предложен новый способ построения семантического блока системы компьютерного сурдоперевода. Для установления соответствия «слово-жест» определены лексические значения слов. Среди множества альтернатив на основе алгоритма семантического анализа за каждым словом закрепляется единственное лексическое значение. Для простых предложений разработаны и реализованы алгоритмы семантического анализа. Предложен способ перевода русского текста на русский жестовый язык на основе сопоставления синтаксических конструкций. Разработана соответствующая библиотека для определения синтаксических конструкций. Для создания архитектуры будущей системы распознавания жестов были рассмотрены существующие аппаратно-программные средства.
В статье рассматриваются вопросы, посвященные созданию автоматической системы синтеза по ключевым словам коротких текстовых сообщений с заданной семантической и эмоциональной направленностью в сети Интернет. Предложена эскизная структура прототипа такой системы, определен состав ее основных компонентов.
1 - 6 из 6 результатов